序言 | 从无序中寻找有序
在我与刘老师相遇的第二十个年头,听闻老师要出版一部总结过去十几年研究成果的书,并邀请我为新书作序,我十分欣喜。一是因为虽然老师喜欢读书、藏书丰富,但他自己很少出书。他的成果多是实证性的文章,虽然每篇论文从理论假设、文献综述到方法支撑都涉及多学科、多语言背景,完全可以形成一部长篇巨著,但是老师总是偏爱以论文这种方式与国内外同行交流。二是因为老师的经历传奇,为老师作序更让我受宠若惊。2000年,刘老师从中国铝业跳槽到了北京广播学院(今中国传媒大学)当一名教师,说是“跳槽”有些不恰当,因为别人跳槽多是为了追逐物质财富而随波沉浮,刘老师却是载着他前半生的精神食粮蜗居到荒凉的东五环定福庄一隅,彻底转行到播音学院的应用语言学系,开始面对一群文理皆有、参差不齐的本科生。
《依存关系与语言网络》一书从微观解析与宏观重构两个角度归纳了刘老师团队近年来的主要研究内容,涵盖了他在依存语法这一普适语言学理论基础上近二十年来从计算到计量的语言学思想与实践精华。在受教于团队巨大研究成果的同时,我似乎看到了刘老师引领着一个个学文科的孩子走出迷茫的步步脚印。正如袁隆平院士所说,“人就像一粒种子,要做一粒好种子”。一个人要做一粒好种子,只需要给他注入一个梦想。刘老师将依存语法与计量充分结合在一起的研究就是开启这个梦想的原点。
充分描述规则不能脱离充分的事实,而“依存关系”是语言学研究从“花园”走向“灌木丛”的普遍规则。相比于短语结构语法,依存分析具有更强大的自然语言分析能力。在遵循依存关系三要素——“二元”、“非对称”和“标记性”的条件下,依存关系可以分析数百种语言的多种语言单位之间的相互关系。因此,在攻读硕士学位阶段,我开始转向构建汉语并列结构依存树库。这个树库中的句子不再是“咬死了猎人的狗”式的精心设计,而是大量来自现实世界的语言事实。仰赖依存关系作为词间二元分析的标准,我再也不用担心长句子中突然插入的成分与那些文本里人为隔开的各种标点符号了。
如何研究句法机制?当然还是要从语言数据入手。30种语言的依存距离分布表明,在会话双方的博弈下,支配词与从属词间的依存关系的前后出现过程力求满足“约束长依存关系,增加短依存关系”的原则,最终使依存距离的分布达到一种可以描述为指数和幂律混合函数的平衡状态,而这种会话双方的博弈也反映了乔治·齐普夫提出的“省力原则”。即便交叉依存结构的理论占比远高于真实语言树库的统计数据,但人类语言倾向于选择不交叉的依存结构来降低句法复杂性。不交叉意味着更多的相邻结构,而组块化则是人类处理长句时启动的一种自适应的调节机制。
第四章依存结构的计量特征及其应用从上一章与随机语言的比较研究回归到人类语言的结构性计量上,在汉语句法类型特征的研究前提下,依存距离在数值上为潜在歧义结构的心理实现提供了解释依据,依存方向在概率上为亲属语言分类提供了量化支持。依存距离最小化的倾向与句长、词动态价的互动关系在英汉语料库的统计参数中存在差异。虽然动态价是加大特定语言平均依存距离的因素,但是汉语的平均依存距离大于英语,汉语的动态价均值却不高于英语,这又催生了其他因素诸如依存结构层级距离、跨度与句长之间协同关系的研究。
在依存分析的加持下,以上四章围绕依存距离与依存方向两个重要指标展开,面向真实的语言材料,对语言的线性结构与层次结构、依存关系形成的动态机制、协同机制进行了广泛的探讨,不仅验证了依存距离与依存方向在多种语言测度中的普遍价值,也揭示了人类语言系统静态线性表象下涌动的复杂适应性。这为该书的第二部分“语言复杂网络研究”埋下了伏笔。
在数据驱动的研究范式日益重要的今天,语言资源建设朝着充分描述事实的方向迈进。很多开源短语结构语法资源开始踏上向依存关系资源转化的道路,大量语言的依存树库被建立起来。此时,刘老师已经不满足于仅仅与机器交互的目标,对人类语言能力的探究才是语言学家的终极目标。在充分被解构的语言事实面前,进行复杂网络的重构,就像找到了一种新工具,用更贴近人脑生理结构的方式来分析语言系统。当然,新方法的使用并非要彻底颠覆传统,老师反复叮嘱我们一定要立足以往语言学各层面研究的成果,用网络科学的方法对模糊概念、分类、问题进行考证,这样的语言网络研究才更有价值。正因为有了这样的定位,语言网络区别于人工神经网络的通信定义,区别于神经网络的生物学定义,所以我们所达成的语言网络研究的基本假设是:网络结构是人类语言知识储存和表示的基础,人类语言能力的实现是句法网络、语义网络、概念网络相互联结作用的结果。在这样的共识之上,语言网络的研究开辟了一个全新的语言学领域,可以说是一个更加包容、多元的语言研究范式。
正如该书第五章第一节的标题所说,“语言是一个复杂网络”,它是一种复杂动态系统。语言要素可以在各个层级表现出高度的复杂网络结构,这些语言符号的相互联系和演变体现出人类语言系统的复杂性。语言网络分析从宏观层面重构了语言系统的整体性,各类语言尤其是汉语的句法网络、语义网络、音素网络、汉字部件网络等子网络在依存分析的支撑下被可靠地建立起来。第五章语言网络的整体特征重点求证了现代汉语句法、语义等复杂网络的全局参数均符合复杂网络小世界、无尺度的基本特性,同时兼具社会网络负相关和层级组织的特性。
《语言网络:隐喻,还是利器?》是刘老师十年前的一篇论文。十年来,随着大数据、脑科学新技术的驱动,语言网络的利器作用越发显著。第七章的研究显示,刘老师团队的研究用网络科学新方法证明了传统语法一贯强调的句法研究的必要性,并为其提供了更为宏观、数据化的支撑。句法在语言网络连通的高效性上起着关键作用,重点表现为虚词作为网络中枢节点在维持全局结构完整性上的显著作用,但同时虚词剔除实验也表明:在中枢节点缺失的条件下,系统鲁棒性并不会导致大面积信息传输的失败。
语言网络的整体参数可以应用于语言类型学分类:词形网络可以更好地反映语言的形态复杂度,可以更好地解决语序不敏感的斯拉夫语族语言的分类问题。句法、语义网络是语体分类的有效知识源。在翻译、语言教学领域,语言网络可以作为一种手段对中介语进行分类、分层研究,以观察语言习得的程度与规律。这些应用研究见于该书的第八章,都是“君子生非异也,善假于物也”,使用语言网络这一利器披荆斩棘而带来的收获。
作为刘老师最早的学生之一,我从北京广播学院应用语言学系的一名本科生一步步成长为一名中文系的教师。作为一名曾经的文科学生与现今的文科教师,我依然饶有兴致、颇有收获地参与到语言理论与应用的跨学科研究中,并且越发意识到在桥接电脑与人脑的联系中语言所起到的阐释智能的关键性作用。在语言网络方向上,2014年我以“基于同一文本的句法网络语义网络关系研究”为题申请到了国家社会科学基金青年项目,2019年以良好的成绩顺利结项。在一份成绩为“优秀”的专家鉴定意见上,评委写了这样一句话:“可以看出作者是一位计算语言学研究的深耕者。”其实,我是“一粒种子”,只不过发芽有点慢而已。
如果你是一位对语言研究有兴趣的学习者,无论目前是何种学习背景与学习程度,都别犹豫,赶紧干起来!前人的脚印就在这本书里,它会引导你走上面向智能、适应变化的语言学道路,而且你可能比任何人都更加幸运,因为在这条路上,你前行已久的同伴们正要拉起你的手。
赵怿怡
小编结语:怎么样,读完这篇序言,大家是不是对《依存关系与语言网络》更加期待了呢?目前这本历时十五年、五十万字全彩印的匠心之作仍在火热预售中,现在预订还可享受7.9折优惠~小编贴心地把不同平台的购买方式都附上了,赶快买起来吧!